We present a framework for ranking images within their class based on the strength of spurious cues present. By measuring the gap in accuracy on the highest and lowest ranked images (we call this spurious gap), we assess spurious feature reliance for $89$ diverse ImageNet models, finding that even the best models underperform in images with weak spurious presence. However, the effect of spurious cues varies far more dramatically across classes, emphasizing the crucial, often overlooked, class-dependence of the spurious correlation problem. While most spurious features we observe are clarifying (i.e. improving test-time accuracy when present, as is typically expected), we surprisingly find many cases of confusing spurious features, where models perform better when they are absent. We then close the spurious gap by training new classification heads on lowly ranked (i.e. without common spurious cues) images, resulting in improved effective robustness to distribution shifts (ObjectNet, ImageNet-R, ImageNet-Sketch). We also propose a second metric to assess feature reliability, finding that spurious features are generally less reliable than non-spurious (core) ones, though again, spurious features can be more reliable for certain classes. To enable our analysis, we annotated $5,000$ feature-class dependencies over {\it all} of ImageNet as core or spurious using minimal human supervision. Finally, we show the feature discovery and spuriosity ranking framework can be extended to other datasets like CelebA and WaterBirds in a lightweight fashion with only linear layer training, leading to discovering a previously unknown racial bias in the Celeb-A hair classification.
translated by 谷歌翻译
现有的一些作品分别研究深神经网络的对抗或自然分布鲁棒性。但是,实际上,模型需要享受两种类型的鲁棒性,以确保可靠性。在这项工作中,我们弥合了这一差距,并表明实际上,对抗性和自然分配鲁棒性之间存在明确的权衡。我们首先考虑具有与核心和虚假功能不相交的高斯数据上的简单线性回归设置。在这种情况下,通过理论和经验分析,我们表明(i)使用$ \ ell_1 $和$ \ ell_2 $规范的对抗性培训增加了对虚假功能的模型依赖; (ii)对于$ \ ell_ \ infty $ versarial训练,仅在伪造功能的比例大于核心功能的范围时才会出现伪造的依赖; (iii)对抗训练可能会在降低分布鲁棒性方面具有意外的后果,特别是当新的测试域中更改虚假相关性时。接下来,我们使用二十个经过对抗训练的模型的测试套件提出了广泛的经验证据受过训练的对应物,验证了我们的理论结果。我们还表明,训练数据中的虚假相关性(保留在测试域中)可以改善对抗性的鲁棒性,表明先前的主张表明对抗性脆弱性植根于虚假相关性是不完整的。
translated by 谷歌翻译
强化学习的许多应用都可以正式化为目标条件的环境,在每个情节中,都有一个“目标”会影响该情节中获得的奖励,但不会影响动态。已经提出了各种技术来提高目标条件环境的性能,例如自动课程生成和目标重新标记。在这项工作中,我们探讨了在目标条件设置中的损失钢筋学习与知识蒸馏之间的联系。特别是:当前的Q值函数和目标Q值估计是该目标的函数,我们想训练Q值函数以匹配其所有目标的目标。因此,我们将基于梯度的注意转移(Zagoruyko和Komodakis 2017)(一种知识蒸馏技术)应用于Q功能更新。我们从经验上表明,当目标空间高维时,这可以提高目标条件的非政策强化学习的性能。我们还表明,在多个同时稀疏目标的情况下,可以对该技术进行调整,以允许有效学习,在这种情况下,代理可以通过在测试时间指定的所有大型目标来实现奖励。最后,为了提供理论支持,我们给出了环境类别的示例,在某些假设下(在某些假设)中,标准的非政策算法至少需要O(d^2)观察到的过渡以学习最佳策略,而我们的建议技术仅需O( d)过渡,其中d是目标和状态空间的维度。
translated by 谷歌翻译
数据中毒考虑了一个对手,该对手扭曲了用于恶意目的的机器学习算法的训练集。在这项工作中,我们揭示了一个关于数据中毒基本原理的猜想,我们称之为致命的剂量猜想。猜想指出:如果需要$ n $清洁的训练样品才能进行准确的预测,则在尺寸 - $ n $训练套件中,只能在确保准确性的同时耐受$ \ theta(n/n)$中毒样品。从理论上讲,我们在多种情况下验证了这一猜想。我们还通过分配歧视提供了对这种猜想的更普遍的看法。深度分区聚合(DPA)及其扩展,有限聚合(FA)是可证明防御数据中毒的可证明防御方法的方法,他们通过使用给定的学习者从不同的培训集中训练的许多基本模型对许多基本模型进行了预测。猜想意味着DPA和FA都是最佳的 - 如果我们拥有最高的学习者,它们可以将其变成针对数据中毒的最强大的防御能力之一。这概述了一种实用方法,可以通过寻找数据效率的学习者来开发更强大的防御能力。从经验上讲,作为概念的证明,我们表明,通过简单地为基础学习者使用不同的数据增强,我们可以分别将DPA在CIFAR-10和GTSRB上的认证稳健性和三倍,而无需牺牲准确性。
translated by 谷歌翻译
沟通对于代理人共享信息并做出良好决定的许多多代理强化学习(MARL)问题很重要。但是,当在存在噪音和潜在攻击者的现实应用程序中部署训练有素的交流代理商时,基于沟通的政策的安全就会成为一个严重的问题,这些问题被忽视。具体而言,如果通过恶意攻击者操纵沟通信息,依靠不信任的交流的代理可能会采取不安全的行动,从而导致灾难性后果。因此,至关重要的是要确保代理人不会被腐败的沟通误导,同时仍然从良性的交流中受益。在这项工作中,我们考虑了一个具有$ n $代理的环境,攻击者可以任意将通信从任何$ c <\ frac {n-1} {2} $代理商转换为受害者代理。对于这种强大的威胁模型,我们通过构建一个消息集结策略来提出可认证的辩护,该策略汇总了多个随机消融的消息集。理论分析表明,这种消息安装策略可以利用良性通信,同时确保对对抗性交流,无论攻击算法如何。在多种环境中的实验证明,我们的防御能够显着改善受过训练的政策对各种攻击的鲁棒性。
translated by 谷歌翻译
自我监督的学习方法在下游分类任务中显示出令人印象深刻的结果。但是,在理解和解释其学会的表现方面的工作有限。在本文中,我们研究了几种最先进的自我监督模型的表示空间,包括Simclr,Swav,Moco V2和Byol。没有使用类标签信息,我们首先发现了对各种样本子集高度活跃的判别特征,并且对应于图像中的独特物理属性。我们表明,使用这种歧视特征,可以压缩高达50%的自我监督模型的表示空间,而不会显着影响下游线性分类。接下来,我们提出了一个示例自我监督的表示质量评分(或q得分),可以计算,而无需访问任何标签信息。 Q得分,利用判别特征可靠地预测在下游分类任务中是否可能错误地分类为SIMCLR上的AUPRC为0.91,而BYOL在Imagenet-100上进行了训练。 Q得分也可以用作正规化术语,以补救在Imagenet-100,Cifar-10,Cifar-100和STL-10上所有4个自我监督基线的相对准确性相对准确性的相对准确性的相对准确性高达8%。此外,通过热图分析,我们表明Q得分正则化增强了判别特征并降低了特征噪声,从而改善了模型的解释性。
translated by 谷歌翻译
数据中毒攻击旨在通过扭曲培训数据来操纵模型行为。以前,提出了基于聚合的认证辩护,深度分区聚合(DPA),以减轻这种威胁。 DPA通过在数据不相交子集对基础分类器的聚合中进行预测,从而限制了其对数据集畸变的敏感性。在这项工作中,我们提出了对一般中毒攻击的经过改进的辩护,即有限的聚集。与直接将训练设置为不相交子集的DPA相反,我们的方法首先将训练设置分为较小的不相交子集,然后将它们的重复项组合在一起,以构建较大(但不是不相关的)子集来用于培训基础分类器。这减少了毒药样品的最严重影响,从而改善了认证的鲁棒性界限。此外,我们还提供了我们方法的替代视图,桥接了确定性和基于随机聚合的认证防御的设计。从经验上讲,我们提出的有限聚合一致地改善了MNIST,CIFAR-10和GTSRB的证书,将认证的分数提高了高达3.05%,3.87%和4.77%,同时保持与DPA相同的清洁精度,实际上建立了新的状态对数据中毒的(尖锐)认证的鲁棒性。
translated by 谷歌翻译
对抗性培训(AT)被认为是对抗对抗攻击最可靠的防御之一。然而,模型培训以牺牲标准精度,并不概括为新的攻击。最近的作用表明,在新型威胁模型中的新威胁模型或神经感知威胁模型中,对普遍威胁模型的对抗样本进行了泛化改进。然而,前者需要确切的流形信息,而后者需要算法放松。通过这些考虑因素,我们利用了具有规范化流的底层歧管信息,确保了确切的歧管的假设保持。此外,我们提出了一种名为联合空间威胁模型(JSTM)的新型威胁模型,其可以作为神经感知威胁模型的特殊情况,这些威胁模型不需要额外放松来制作相应的对抗性攻击。在JSTM下,我们培养了新的对抗性攻击和防御。混合策略提高了神经网络的标准准确性,但与AT结合时牺牲了鲁棒性。为了解决这个问题,我们提出了强大的混合策略,其中我们最大限度地提高了内插图像的逆境,并获得了鲁棒性和预装配。我们的实验表明,内插关节空间对抗性训练(IJSAT)在CiFar-10/100,Om-ImageNet和CiFar-10-C数据集中实现了标准精度,鲁棒性和泛化的良好性能。 IJSAT也是灵活的,可以用作数据增强方法,以提高标准精度,并与诸多换取以提高鲁棒性的方法相结合。
translated by 谷歌翻译
最近的研究表明,对对抗性攻击的鲁棒性可以跨网络转移。换句话说,在强大的教师模型的帮助下,我们可以使模型更加强大。我们问是否从静态教师那里学习,可以模特“学习”和“互相教导”来实现更好的稳健性?在本文中,我们研究模型之间的相互作用如何通过知识蒸馏来影响鲁棒性。我们提出了互联土训练(垫子),其中多种模型一起培训并分享对抗性示例的知识,以实现改善的鲁棒性。垫允许强大的模型来探索更大的对抗样本空间,并找到更强大的特征空间和决策边界。通过对CIFAR-10和CIFAR-100的广泛实验,我们证明垫可以在白盒攻击下有效地改善模型稳健性和最优异的现有方法,使$ \ SIM为8%的准确性增益对香草对抗培训(在PGD-100袭击下。此外,我们表明垫子还可以在不同的扰动类型中减轻鲁棒性权衡,从$ l_ \ infty $,$ l_2 $和$ l_1 $攻击中带来基线的基线。这些结果表明了该方法的优越性,并证明协作学习是设计强大模型的有效策略。
translated by 谷歌翻译
对象检测在许多安全关键系统中播放关键作用。对抗性补丁攻击,在物理世界中易于实施,对最先进的对象探测器构成严重威胁。开发针对补丁攻击的对象探测器的可靠防御是至关重要的,但严重解读。在本文中,我们提出了段和完整的防御(SAC),是通过检测和消除对抗性补丁来保护对象探测器的一般框架。我们首先培训一个补丁分段器,输出补丁掩码,提供对抗性补丁的像素级定位。然后,我们提出了一种自我逆势训练算法来强制补丁分段器。此外,我们设计了一种坚固的形状完成算法,保证了给定贴片分段器的输出在地面真理贴片掩模的某个汉明距离的图像中从图像中移除整个修补程序。我们对Coco和Xview Datasets的实验表明,即使在具有清洁图像上没有性能下降的强大自适应攻击下,SAC也可以实现优越的稳健性,并且概括到未遵守的补丁形状,攻击预算和看不见的攻击方法。此外,我们介绍了股份模型数据集,该数据集增强了具有对抗修补程序的像素级注释的杏子数据集。我们展示SAC可以显着降低物理补丁攻击的目标攻击成功率。
translated by 谷歌翻译